iT邦幫忙

2022 iThome 鐵人賽

DAY 8
0

為了因應明天會用到的組件,所以先來科普一下大家拉~/images/emoticon/emoticon31.gif

階層式分群法(Hierarchical Clustering)

它是透過階層架構的方式,將資料一層層地反覆進行分裂或者聚合,來產生最後的樹狀結構,然而,常見的方式有聚合式階層和分裂式階層分群法,這兩種分群法。

  • 聚合式階層分群法
    經由樹狀結構的底部,將資料或分群一次次合併。起初,每一筆資料,它會視為一個群聚,如果有 N 筆資料,則可看成 N 個群聚,並且依照演算法形成聚合樹。

    四個主要流程之步驟:

    1. 計算樣本間各個點的距離
    2. 再將距離最接近的一群合成起來,變成新的樣本組合
    3. 重複1和2的步驟,一直到所有的樣本變成一群,則可停止
    4. 根據距離來切割它們,決定了最終聚在一起的群數
    
  • 分裂式階層分群法
    由樹狀結構的頂端開始,逐漸地分裂分群。起初,會將所有的資料視成一個群聚,並依照演算法形成分裂樹。

兩個群聚之間的距離

因在實作上聚合方式較容易操作,所以底下為聚合方式的介紹,而在聚合時,需要定義兩個群聚的距離,這裡有 4 種常用的群聚距離之定義。

  • 單一連結 (single-linkage):群與群間的距離,為不同群聚中,最接近的兩點距離。
  • 完整連結 (complete-linkage):不同群聚中,最遠的兩點距離,而這麼做可以確定兩個集合在合併之後, 任一對的距離都不會「> d」。
  • 平均連結 (average-linkage):不同群聚之間,每個點與點間距離總和的平均。
  • 沃德法(Ward's method):將兩群合併之後,各個點到群中心的距離平方和。

Hierarchical Clustering 的優缺點

  • 優點: 簡單易懂,當我們建構完完整的樹狀分類,可方便地決定想要分成幾群。
  • 缺點: 僅適用於小樣本的資料。從上面描述中,我們可以察覺到這個分群方式的計算量,是相當龐大的!

好哩~今天就先吸收知識到這邊拉,敬請期待明日,將會運用到它喔!bye~/images/emoticon/emoticon37.gif
https://ithelp.ithome.com.tw/upload/images/20220923/20151063vkXImf5LKh.png

參考資料:
[機器學習首部曲] 層次聚類 Hierarchical Clustering
AI - Ch19 機器學習(7), 分群/聚類:階層式分群法 Clustering: Hierarchical Clustering
階層分群 (Hierarchical Clustering)


上一篇
〔Day7〕自己動手建數據!
下一篇
〔Day9〕數據分層並可視化-Hierarchical Clustering、Scatter Plot
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言